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摘 要 : 在 射电 干涉 阵 的 大 视 场 成 像 中 ,W- -ProjectionfeW- Stacking 是 两 类 主要 的 成 像 方法 。 
本 文 对 这 两 种 成 像 方法 进行 了 并 行 实测 研究 。 首 先 分 析 了 两 种 成 像 方法 的 基本 原理 框架 ， 在 此 
基础 上 对 两 种 成 像 方法 并 行 实现 时 的 关键 因素 进行 了 讨论 和 分 析 。 TUS EZ 经 校准 的 射电 干涉 阵 
观测 数据 对 两 种 成 像 方法 基于 RASCIL 分 别 进行 并 行 策略 研究 和 并 行 计 算 实验 。 通 过 对 并 行 计算 
Hs 并 行 效率 和 并 行 资源 配置 模式 的 分 析 , 得 到 了 两 种 成 像 方法 基于 RASCIL 的 并 行 计 算 性 能 ， 

结果 表明 两 种 成 像 方法 都 适合 采用 Strong Scaling 的 并 行 资源 配置 模式 进行 并 行 计算 ， 基 于 
RASCIL 的 W- Stacking 并 行 计 算 还 有 比较 大 的 性 能 提升 空间 。 
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1 引言 


在 射电 干涉 阵 的 成 像 研究 中 ， 随 着 观测 视 场 的 扩大 ， 射 电 干涉 阵 成 像 时 需要 进行 大 视 场 成 
像 。 射 电 干 涉 阵 的 大 视 场 成 像 方法 包括 三 维 傅 里 叶 变 换 的 方法 "，" ,Faceting 方 法 |， 
W-Projection 方 法 中，W-Stacking 方 法 等 5 

SKA 平 方 公里 阵 的 提 出 为 射电 干涉 阵 的 成 像 带 来 了 3 新 的 挑战 。SKA 的 巨大 规模 和 复杂 程度 远 
远 超出 了 现 有 射电 天 文 望 远 镜 阵列 ， 全 规模 运行 的 SKA 产 生 的 海量 数据 需要 10 亿 亿 次 / 秒 处 理 能 
力 ， 是 2017 年 最 快 的 超级 计算 机 神威 太湖 之 光 处 理 能 力 〈0. 9 亿 亿 次 / 秒 ) 的 10 倍 所， 因此 在 射 
昌 干 涉 阵 的 数据 处 理 中 ， 多 节点 的 并 行 化 实现 一 直 是 研究 的 重要 内 容 。 
在 射电 干涉 阵 的 成 像 中 , 大 视 场 成 像 方法 的 并 行 实现 已 成 为 研究 的 重点 。 劳 保 强 等 … 实现 
了 W-Projection 的 CPU 并 行 和 GPU 并 行 的 实验 ， 并 在 天 河 二 号 (MilkyWay-2) 超级 计算 机 上 进行 
了 实验 ， 还 比较 了 单 精度 和 双 精 度 情 况 下 数据 加 载 时 间 和 网 格 化 运行 时 间 ; 以 及 对 uv 域 的 
Faceting 成 像 方法 的 并 行 化 进行 了 研究 于 昂 等 ”在 uv 域 的 Faceting 成 像 方 法 和 W-Projection 
成 像 方法 的 基础 上 提出 了 一 种 新 的 方法 w-facets， 并 通过 多 核 CPU 和 GPU 进 行 了 并 行 实现 。 
Barnett 等 "提出 新 的 网 格 化 核 函 数 ， 并 通 nuc le pis. 
等 对 提出 的 网 格 网 方法 进行 了 并 行 测试 ， 给 出 了 Strong Scaling 下 测试 结果 。 

本 文 主 要 基于 RASCIL XW- Projection ii- Stacking 方 法 利用 DASK 进 行 CPU 并 行 实现 ， 分 析 
在 RASCIL 中 两 种 成 像 方法 在 并 行 时 的 策略 选择 ， 以 及 并 行 资源 的 消耗 ， 为 后 续 基于 RASCIL 的 射 
昌 干 涉 阵 数据 处 理 提 供 参 考 。 第 二 部 分 介绍 两 种 成 像 方 法 的 基本 实现 框架 ， 第 三 部 分 介绍 两 种 
成 像 方 法 的 并 行 计算 实验 ， 第 四 部 分 是 实验 结果 及 讨论 ， 最 后 是 全 文 的 结论 。 


2 W-Projection 和 和 W-Stacking 的 实现 框架 


W-Projection 和 W-Stacking 是 射电 干涉 阵 大 视 场 成 像 的 经 典 算法 , W-Projection 是 CASA 处 


! https://gitlab.com/ska-telescope/external/rascil 
? https://casadocs.readthedocs.io/en/stable/ 
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里 大 视 场 成 像 的 方法 之 一 ， 而 WStacking 是 WSClean 处理 大 视 场 成 像 的 方法 之 一 。 

1 是 W-Projection 成 像 方法 实现 的 功能 框图 , 在 图 中 最 左 侧 是 射电 干涉 阵 接收 的 可 见 度 数 
据 集 ， 在 成 像 前 该 可 见 度数 据 集 已 完成 校准 ， 数 据 集 加 载 后 ， 可 以 获得 观测 的 (www) 的 分 布 ， 
利用 这 些 信息 通过 式 (1) 计算 得 到 成 像 时 所 需要 的 w 平 面 数 N,,， 其 中 64 一 0.02 75, FOV 
成 像 的 视 场 ，wse 是 相 邻 的 平面 的 间隔 ，wios 是 w 的 最 大 值 ， 
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Use X EOV? (D 
dosi 1.1 X 2.0 X Wmas) 
Wstep 


然后 利用 卷 积 核 函数 生成 Nu 个 卷 积 核 , 这 也 是 WProjection 成 像 方 法 中 的 关键 , 具有 不 同 
也 值 的 可 见 度 数据 与 对 应 的 卷 积 核 进行 苍 积 ， 实 现 从 (w,v,w) 向 (wo) 平 面 的 投影 ， 卷 积 完 的 可 
见 度数 据 将 分 布 在 (w,v) 的 平面 上 ， 并 且 进 行车 加 ， 最 后 通过 傅 里 叶 逆 变换 得 到 成 像 的 脏 图 。 
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图 1 W-Projection 实 现 的 原理 框图 
Figure 1 principles of W-Projection implementation 


图 2 是 W-Stacking 成 像 方法 实现 的 功能 框图 , 在 图 中 最 左 侧 是 射电 干涉 阵 接收 到 的 可 见 度数 
据 集 ， 同 样 该 数据 集 是 已 经 完成 校准 的 。 数 据 集 加 载 后 ， 与 W-Projection 相 似 ， 从 (wwao) 的 分 
布 通过 式 (1) 计算 出 需要 的 ww 平面 数 N。, 把 可 见 度数 据 集 按照 不 同 的 ww 值 分 为 N, 个 数据 切片 ， 
每 一 个 数据 切片 都 与 卷 积 核 进行 卷 积 网 格 化 ， 这 个 卷 积 核 是 分 布 在 (uv) 平面 的 。 卷 积 网 格 化 后 
每 一 个 数据 切片 通过 传 里 叶 逆 变 换 得 到 该 数据 切片 所 对 应 的 图 像 ， 每 一 幅 图 像 需要 乘 以 


e Pm 0， 然后 再 将 所 有 图 像 进行 相 加 合并 ， 合 并 后 再 乘 以 We 就 得 到 
W-Stacking 成 像 的 脏 图 。 


3 https;//gitlab.com/aroffringa/wsclean/ 
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图 2 W-Stacking 实 现 的 原理 框图 
Figure 2 principles of W-Stacking implementation 


通过 对 两 种 成 像 方法 实现 框图 的 分 析 ， WProjectin 方 法 与 WStacking 方 法 相同 的 之 处 是 
两 种 方法 都 需要 根据 观测 校准 的 可 见 度数 据 的 (www) 的 信息 计算 出 w 平 面 数 N,, 。 而 两 种 成 像 
方法 不 同 的 是 : 及 Projection 方 法 需要 根据 几乎 面 数 来 计算 投影 的 卷 积 核 ， 卷 积 核 的 数量 与 NW。 
一 致 ， 在 计算 时 需要 考虑 卷 积 核 的 宽度 ， 以 及 过 采样 点 的 数量 ， 这 两 个 因素 会 影响 卷 积 核 的 计 
算 时 间 和 在 内 存 中 占用 的 空间 。 而 W-Stacking 需 要 根据 岂 平 面 数 ， 对 可 见 度 数据 进行 划分 ， 需 
要 将 对 应 ww 值得 可 见 度 数据 划分 到 同一 个 数据 切片 中 ， 数 据 切 片 集合 的 数量 与 w 平 面 数 一 致 
Ns。W-Stacking 在 卷 积 网 格 化 这 个 环节 中 只 需要 一 个 卷 积 核 ， 也 就 是 所 有 数据 切片 都 会 与 同样 
的 卷 积 核 进 行 卷 积 网 格 化 ， 网 格 化 后 再 通过 傅 里 叶 变 换 得 到 数据 切片 对 应 的 图 像 。 

在 成 像 处 理 中 W-Projection 需 要 计算 与 N, 数量 相等 的 卷 积 核 , 因此 这 一 部 分 的 计算 消耗 将 
超过 W-Stacking， 但 是 由 于 WStacking 方 法 需要 首先 将 可 见 度 数据 集 进行 划分 数据 切片 ， 所 以 
当 可 见 度数 据 的 规模 达到 一 定时 ， 需 要 特别 考虑 这 一 操作 的 计算 效率 ; 又 因为 WStacking 在 实 
现时 需要 存储 与 w 平 面 数 相等 个 数 的 数据 切片 , 因此 当 可 见 度 数据 集 具 有 一 定 规模 时 ， 需 要 的 内 
存 规模 会 远 远 超过 W-Projection。 


3 并 行 实验 


3.1 实验 数据 

成 像 实验 数据 是 来 自 Karl G. Janskey Very Large Array 阵列 的 D 阵 型 观测 校准 数据 
SNR 655 10s. calib. ms， 观测 的 目标 是 超新星 遗迹 6055. 7+3. 4，“〈 观 测 的 相位 中 心 ，RA: 
19:21:40，DEC:21. 45.00) ， 观 测 日 期 是 2010-08-23-01:07:14.00 (UTC) 至 
2010-08-23-08:14:54. 00 (UTC) ， 观 测 频 段 是 L 频 段 1-26GHz 频 率 ， 包 含 4 个 频谱 窗口 ， 每 个 频谱 
窗口 有 64 个 频道 , 每 个 频道 2 种 极 化 方式 。 数 据 的 大 小 为 1. 46。 根据 观测 阵列 的 w,v,w 分 布 情况 ， 
可 以 计算 出 最 长 基线 和 最 大 的 w 值 ， 再 根据 成 像 时 每 个 像素 的 大 小 为 8 角 秒 ， 图 像 每 个 方向 包含 
1280 个 像素 ， 就 可 以 根据 式 (1) 得 出 在 上 述 成 像 参 数 下 ， 改 正 w-term 的 影响 所 必需 的 w 平 面 数 
为 68。 
3.2 并 行 计算 
(1) 并 行 环境 

本 文 使 用 射电 天 文 模拟 、 校 准 和 成 像 库 (RASCIL, Radio Astronomy Simulation, 
Calibration, and Imaging Library，) 来 进行 成 像 。RASCIL 是 一 个 完全 开源 的 射电 干涉 阵列 数 
据 处 理 包 ， 已 被 广泛 用 于 SKA 数 据 模拟 和 处 理 研究 。 它 的 处 理 结果 已 经 与 其 他 软件 进行 了 比较 ， 
并 被 证 实 是 可 靠 的 。RASCIL 是 用 Python 开 发 的 ， 在 实验 中 采用 的 版 本 为 v. 0. 1. 9。 

并 行 处 理 基 于 DASK 进 行 ，DASK 也 是 一 个 开源 库 ， 为 现 有 的 Python 堆栈 提供 并 行 性 ，DASK 
与 Python 库 集 成 。 在 科学 计算 中 数据 集 和 计算 规模 的 扩展 速度 远 远 高 于 处 理 器 和 内 存 发 展 的 速 
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度 ， 科 学 计算 往往 需要 扩展 到 多 台 计 算 机 进行 运算 ，DASK 提 供 了 可 路 多 个 核心 、 处 理 器 和 计算 
机 实现 并 行 执行 。 
(2) 实验 人 硬件 配置 
成 像 实验 中 使 用 相同 配置 的 硬件 作为 计算 节点 , 人 硬件 配置 如 表 1 所 示 。 各 个 节点 通过 光纤 万 
交换 机 和 路 由 器 进行 连接 组 成 以 太 网 ， 保 证 各 计算 节点 在 同一 局 域 网 组 网 ， 每 个 节点 有 相同 
HO Ped ER SUE XUI i 


表 1 并 行 计算 节点 的 硬件 配置 


Table 1 Hardware configuration of Parallel computing nodes 


Hardware Model Specification Quantity 

Motherboard Intel (R) C610 

CPU Intel (R) Xeon (R) 14 cores l.7Ghz l4 nm 2 
E5-2650L v4 TDP65w 

RAM Samsung DDR4 DDR4 2400 CRC 192GB 

Hard disk Samsung SSD 960 EVO 512GB 2 

Network Adapter Intel X540-AT2 10G Ethernet 1 


(3) 实验 软件 配置 
操作 系统 : Ubuntu 22.04 LTS， 开 发 语言 环境 : Python v3. 8.2， 并 行 计算 框架 ; DASK 
2022. 6. 1， 应 用 软件 : RASCIL v0. 1.9. 

3.3 两 种 成 像 方法 的 并 行 策 略 
两 种 大 视 场 成 像 方法 的 并 行 实现 中 ， 当 处 理 器 负载 最 大 ， 或 者 数据 流 带 宽 达 到 上 限时 ， 计 

算 系 统 的 吞吐 量 达 到 上 限 饱 和 ， 计 算 系 统 将 到 达 瓶 颈 ， 无 法 提升 处 理 速度 。 因 此 ， 成 像 算法 并 

行 化 设计 的 前 提 是 在 保证 计算 系统 吞吐 量 最 大 时 计算 性 能 结果 进行 分 析 ， 即 在 不 同 算 法 和 数据 

切片 并 行 调度 方式 下 ， 所 分 配 的 处 理 器 资源 或 者 带宽 资源 应 接近 100% 占 用 率 。 

两 种 大 视 场 成 像 算法 的 实现 核心 可 以 分 成 下 面 三 个 部 分 : 
1) 数据 集 加 载 和 数据 集 的 预 处 理 ; 
2) 计算 任务 和 数据 的 分 布 式 调度 执行 ; 


D 计算 结果 聚合 ， 为 下 一 环节 pipeline 做 准 
(1) W-Projection 的 并 行 策略 


备 。 


W-Pro ject ion 能 够 分 解 成 一 些 完全 独立 的 子 


任务 、 同 时 各 个 子 人 


FE 务 之 间 数 据 几 乎 没有 依赖 ， 


没有 通信 。 以 每 通 


道 可 见 度 数据 分 配 并 行 计算 任务 ， 数 据 日 


创建 各 通 


Hvis load ms task 读 入 ， 


道 图 像 和 卷 积 核 (create wp gcfcf from vis), 


计算 ， 并 将 各 通道 图 


像 通过 gahter_image 将 图 像 结果 》 


算 环 节 用 “P” 做 了 标注 。 


CR, wK 


完成 gridding 相 关 invert 和 sum invert task 


3 所 示 ， 在 图 中 需要 持久 化 的 计 
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图 3 W-Projection 的 并 行 策略 
Figure 3 Parallel computing implementation of W-Projection 


(2) WStacking 的 并 行 策略 

W-Stacking 以 每 通道 可 见 度数 据 并 行 分 配 计算 任务 的 方式 ， 数 据 由 load_ms task 读 入 ， 每 
个 通道 做 数据 w_slice 切 片 后 进行 Scatter-Gather 并 行 执行 , 分 片 (Scatter) 之 后 每 个 分 片 进 
ÍTgridding invert task 计 算 ， 计 算 结果 进行 聚合 (Gahter) ， 并 将 各 通道 图 像 结果 汇集 
gahter_image。 W-Stacking 按 照 w 进行 数据 分 片 ， 这 样 有 两 种 并 行 策略 : 

1) 策略 1 多 通道 并 行 ， 每 通道 分 片 并 行 计算 ， 这 样 将 会 消耗 非常 多 的 内 存 资源 ， 任务 并 
行 关系 示意 图 如 图 4 左 图 ， 其 中 持久 化 的 计算 结果 环节 将 用 “P” 表 示 。 由 于 RASCIL 中 数据 分 片 
数量 和 Task 数 量 相 等 ， 这 会 导致 在 并 行 处 理 中 系统 内 存 开销 过 大 ， 因 此 在 目前 的 硬件 配置 下 这 
种 策略 无 法 得 到 成 功 的 计算 结果 。 

2) 策略 2 多 通道 并 行 ， 每 通道 顺序 分 片 并 行 计算 ， 节 省 内 存 资源 任务 并 行 关系 示意 图 如 
Et. 其 中 持久 化 的 计算 结果 环节 将 用 P 表 示 ， 因 此 在 WStacking 的 并 行 实 现时 选择 了 这 种 
策略 。 

在 图 3 和 图 4 中 只 画 出 了 4 条 数据 通道 的 任务 图 ， 在 实验 中 可 见 度数 据 的 通道 数 最 高 为 64。 


图 4 W-Stacking 的 并 行 策略 
Figure 4 Parallel computing implementation of W-Stacking 


4 结果 讨论 


在 成 像 方法 的 DASK 并 行 计算 实验 中 ， 为 减少 进程 切换 损耗 和 并 行 调度 复杂 度 ， 每 个 worker 
对 应 一 个 进程 和 线程 ，worker 总 数量 不 超过 处 理 器 逻辑 核心 数量 ， 每 个 worker 最 大 内 存 限制 为 
12GB. 

在 并 行 处 理 中 最 小 参考 基准 是 单一 worker， 单 一 物理 核心 ， 单 一 进程 和 线程 ， 对 于 超 线 程 
架构 和 夸 频 技术 的 CPU 核心 ， 逻辑 核心 计算 性 能 并 不 等 同 于 物理 核心 计算 性 能 。 因 此 在 并 行 计算 
时 按照 同一 计算 场景 , 同一 节点 上 56 录 辑 核心 和 28 物 理 核 心计 算 时 间 ( 分 别 为 208. 49 秒 和 190. 94 


秒 ) 进行 如 下 的 换算 ， 
MAES IL E H IN 8b E ` MAES 
物理 核心 约 等 于 508-49 /7190.94 Kum 2.69 倍 逻辑 核心 计算 能 力 ， 其 中 单 核心 豁 频 


2. 5GHz，CPU 的 基 频 1. 76Hz， 两 者 的 比值 为 处 理 器 能 力 提 升 倍率 。 
4.1 并 行 计算 时 间 
CD 在 数据 处 理 与 计算 规模 恒定 的 情况 下 , 即 这 时 处 理 的 可 见 度 数据 均 为 64 通道 的 ， 对 

应 不 同 计算 集群 和 CPU 核心 数量 〈 每 个 Worker 对 应 一 个 物理 或 逻辑 核心 ) 配置 下 ， 对 两 种 成 

像 方法 的 并 行 计算 完成 的 时 间 进 行 比较 ， 如 表 2 和 表 3 所 示 ， 可 以 看 出 在 增加 节点 或 节点 的 CPU 
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核心 数量 增加 时 ， 两 种 成 像 方法 的 计算 时 间 都 降低 。 

(2) 在 集群 节点 数量 都 恒定 为 2, CPU 物 理 核 心 数 量 随 着 处 理 数据 规模 等 比例 增加 的 情况 下 ， 
并 行 计算 完成 的 时 间 如 表 4 所 示 ， 可 以 看 到 ， 当 数据 规模 不 断 增加 后 ， 随 着 物理 核心 数 的 增加 ， 
计算 时 间 也 在 增加 。 


表 2 W-Projection 并 行 计算 时 间 (单位 : 秒 ) 
Table 2 Parallel computing time of W-Projection (unit: second) 


Number of nodes Number of Physical cores Equivalent Execution 
in cluster visibility channel per node logic cores time 
1 64 1 2.69 1174 
1 64 n/a 1 3158 
1 64 14 28 208. 49 
1 64 28 56 190. 94 
2 64 8 43. 06 145. 363 
2 64 14 75. 36 122. 657 
2 64 56 112 98. 87 


R3 W-Stacking 并 行 计算 时 间 (单位 : 秒 ) 
Table 3 Parallel computing time of W-Stacking (unit: second) 


Number of nodes in Number of Physical cores Equivalent Execution 
cluster visibility channels per node logic cores time 
1 64 1 2.69 3843 
64 n/a 1 10327 
1 64 14 28 512. 61 
1 64 28 56 580. 80 
2 64 8 43. 06 429. 251 
2 64 14 75. 36 324. 400 
2 64 56 112 260. 70 


表 4 数据 规模 和 计算 核心 同步 增长 时 并 行 计算 时 间 (单位 : 秒 ) 
Table 4 Parallel computing time for simultaneous expansion of data size 
and computing cores (unit: second) 


Number of visibility Physical W-Projection W-Stacking 
channels cores execution time ^ execution time 
1 1 12. 617 54. 984 
2 2 21. 647 60. 139 
4 4 20. 306 63. 185 
8 8 35. 238 69. 301 
16 16 37. 992 94. 277 
28 28 61. 054 134. 960 
36 36 88. 371 191. 821 
48 48 105. 620 266. 238 


4.2 成 像 方法 并 行 效率 分 析 
在 并 行 处 理 中 ， 加 速 比 的 定义 如 式 〈2) 所 示 ， 其 中 在 上 式 中 58, 为 加 速 比 ， 瓦 ,是 并 行 效率 ， 


下 为 最 优 顺序 算法 的 单 处 理 核 心 执行 时 间 ， 胞 为 使 用 p 个 处 理 器 核心 并 行 计 算 所 花费 的 时 间 。 
d 
"s xi (2) 
_ nod 
Hye 1 


并 行 加 速 比 和 两 种 成 像 方法 并 行 效 率 如 图 5 所 示 ， 其 中 左 图 为 两 种 成 像 方法 的 并 行 加 速 比 ， 
右 图 为 并 行 效率 。 由 于 并 行 任务 的 分 配 并 不 一 定 和 worker 数 量 整除 尽 ， 计 算 时 间 和 系统 并 行 效 
率 并 不 是 随 运 行 CPU 核 心 数 量 (Worker 数 量 ) 线性 增加 和 减少 的 关系 ， 所 以 图 中 出 现 核心 数 多 反 
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而 更 慢 的 起 伏 点 。 处 理 密集 运算 《多 核心 计算 ) 时 候 ， 并 行 效率 衰减 较 快 ， 这 是 因为 一 方面 并 
行 调度 开销 的 增长 ， 另 外 一 方面 现代 CPU 寄 频 和 超 线 程 和 多 CPU 的 架构 特性 为 少量 核心 运算 的 计 
算 场景 提供 更 好 每 核心 性 能 。 
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图 5 并 行 加 速 比 和 并 行 效率 


Figure 5 Parallel speedup and system efficiency 


4.3 数据 规模 分 析 

当 处 理 的 可 见 度数 据 规 模 发 生变 化 时 ， 针 对 两 种 并 行 计算 资源 配置 的 不 同 场景 进行 分 析 : 

(1) Strong Scaling: 在 并 行 处 理 中 , 问题 规模 保持 不 变 ( 即 可 见 度 数据 的 通道 数量 不 变 ) ， 
增加 处 理 器 数量 ， 这 用 于 找到 解 该 问题 最 合适 的 处 理 器 数量 ， 即 所 用 时 间 尽 可 能 短 而 又 不 产生 
太 大 的 开销 。 两 种 成 像 方法 在 Strong Scaling 资 源 配置 模式 的 并 行 计算 时 间 与 加 速 比 如 图 6， 左 
图 为 W-Projection， 右 图 为 WStacking， 从 图 中 可 以 看 出 ， 在 处 理 的 可 见 度数 据 通道 数量 不 变 
时 ，W-Projection 在 43 核 心 时 达到 计算 速度 与 每 核心 使 用 效率 的 最 佳 平衡 点 ， 而 WStacking 在 
28 核 时 达到 。 


W^ Projection strong scaling [Constark scole of data) W-Stacióng wrong scaling (córetant ecale of data) 
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Figure 6 Strong Scaling: parallel computing configuration 
(2) Weak Scaling: 并 行 处 理 问题 规模 (计算 量 ) 随处 理 器 数量 增加 而 增加 ， 适 合 这 种 并 
行 资源 配置 策略 时 并 行 效率 会 保持 水 平稳 定 。 测 试 结果 如 图 7 所 示 ， 从 图 中 可 以 看 出 ， 并 行 效率 


迅速 下 降 ， 因 此 两 种 成 像 方法 的 并 行 实现 在 数据 规模 发 生变 化 时 并 不 适合 Weak Scaling 并 行 资 
源 配 置 策略 。 
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先 介 绍 了 W-Projection 和 W-S 


V. Projection weak scaling (data sce Woreses by 8 cores? 


图 7 Weak Scaling 资源 配置 


Figure 7 Weak Scaling: parallel computing configuration 


器 增长 两 种 场景 做 了 并 行 


中 ， 可 见 度 数据 是 利 


tacking 了 两 和 


庞大 ， 而 及 Stacking 方 法 需要 多 次 对 visibility 对 象 进行 读 写 ， 


见 度 数据 采 


EX 


HEF 


大 视 场 成 像 方法 的 实现 原理 框图 ， 在 此 基 
础 上 完成 基于 RASCIL 的 W-Projection 和 W-Stacking 方 法 的 DASK 并 行 实验 , 采用 了 VLA-D 阵 列 对 超 
3. 4 的 校准 观测 数据 集 进行 上 述 两 种 成 像 方法 的 并 行 处 型 
各 ， 在 不 同 集群 
mr 
行 分 析 ， 并 在 数据 规模 增长 时 对 


E， 对 两 种 成 像 方法 设 
节点 和 处 理 器 核心 数 ( 即 worker 数 量 ) 配置 下 ， 分 别 在 数据 规 
| 算 时 间 统 计 ， 对 加 速 比 和 并 行 实现 效 率 进 
比 了 两 种 成 像 方法 在 Strong Scaling 和 Weak Scaling 
下 并 行 计 算 的 优 劣 , 两 种 成 像 方法 适合 采用 Strong Scaling 并 行 资源 配置 方式 。 上 出 
jvisibility 对 和 象 进行 存储 和 访问 的 ， 在 进行 并 行 计算 时 该 对 


两 种 策 
于 在 RASCIL 


所 以 该 方法 在 3 


的 时 间 超 过 了 WProjection， 在 未 来 基于 RASCIL 的 成 像 并 行 计算 中 ， 可 以 考虑 对 可 


j 更 加 简单 的 数据 结构 ， 这 样 就 全 FW-Stackingh AX B SUR 
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Parallel Computing Based on RASCIL 
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Abstract: W-Projection and W-Stacking are classical wide field imaging methods in radio 
interferometry. In this paper, the parallel computing implementation of these two imaging methods is 
carried out. First, the basic principle of the two imaging methods is analyzed, based on which the key 
factors for the parallel computing implementation of the imaging methods are discussed. The parallel 
computing experiments are carried out based on RASCIL for these imaging methods using calibrated 
radio interferometry observation data. The performances of the two imaging methods parallel 
computing are obtained by analyzing the parallel computation time, as well as the parallel efficiency 
and parallel resource configuration. The results show that both imaging methods are suitable for the 
parallel computing configuration of Strong Scaling, while the parallel computing of W-Stacking based 


on RASCIL has a great potential for performance improvement. 
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